#FG-CLIP 2

4个月前

试了下 360 开源的 FG-CLIP 2，直接把传统 AI 视觉理解给秒了。以前让 AI 画「猫站在蓝色跑车左边，后面是白色 SUV」，它连「后面」这个空间关系都搞不懂。搜「红色特斯拉引擎盖上有鸟粪」，两排图下来对得上的就一张。这就是传统 CLIP 的通病 —— 近视，看不清细节。 FG-CLIP 2 能干嘛？通过毛发纹理分辨狸花猫和英短，看懂屏幕里面的内容，理解「机器人带老年人做伸展操」这种复杂场景。 29 项全球测试，29 个第一。 Google、Meta 全被甩后面。而且中文理解也猛，不像其他模型中文基本失明。核心就两点： 5 亿对高质量中文图文数据 + 局部细节死磕训练。已经开源，代码论文 API 都有。这才是真正能用的视觉模型。

智谱直播发布全球最佳视觉模型GLM-4.5V，挑战AI视觉领域极限· 21 条信息

#FG-CLIP 2 #AI视觉理解 #中文理解 #开源 #细节识别